iT邦幫忙

2025 iThome 鐵人賽

DAY 10
0
生成式 AI

30天從不認識生成式AI到好像稍微可能有點熟悉的過程系列 第 10

Day 10 . AI生成語音相關應用:TTS/STT 工具介紹

  • 分享至 

  • xImage
  •  

今天我要介紹的是跟AI語音生成相關的TTS/STT 工具以及應用
順帶一提,TTS代表(Text-to-Speech),也就是把文字轉換成自然語音;而STT則是(Speech-to-Text),把語音轉換成文字。


AI的語音生成有哪些應用?
AI的語音生成在許多地方都可以用到,像是可以透過 TTS 閱讀文字來幫助視覺障礙者,或是STT 可快速轉寫會議、課程或訪談內容,拿來創作或娛樂都是不錯的選擇。


常見平台與工具
這邊介紹一些網路上比較常見的使用平台以及工具
1.OpenAI Whisper:高準確度的STT並且支援多語言,可以用在會議逐字稿、Podcast 轉文字上。
2.Microsoft Azure Speech:可以提供 TTS & STT,並支援多種語音風格。
3.ElevenLabs:提供TTS,聲音自然,也支援角色訓練。


如何試用
TTS:到 ElevenLabs註冊 https://elevenlabs.io/ ,輸入任何文字,並選擇喜歡的語音風格,就能聽到 AI 念出你的句子。
STT:用 Whisper Web Demo https://huggingface.co/spaces/openai/whisper 上傳音檔或錄音,就可以得到逐字稿。


程式範例
如果想要使用 OpenAI 的 Whisper API 進行 STT 的話,這邊有一個簡單例子

from openai import OpenAI
client = OpenAI(api_key="你的金鑰")

with open("homework.mp3", "rb") as audio_file:
    transcript = client.audio.transcriptions.create(
        model="whisper-1",
        file=audio_file
    )

print("逐字稿:", transcript.text)

這樣就可以獲得homework.mp3的逐字稿了


上一篇
Day 09 . trytry 看線上Stable Diffusion AI繪圖
下一篇
Day 11 . AI 在程式開發上的應用
系列文
30天從不認識生成式AI到好像稍微可能有點熟悉的過程24
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言